home *** CD-ROM | disk | FTP | other *** search
/ Collection of Internet / Collection of Internet.iso / infosrvr / dev / www_talk.930 / 000086_timbl _Tue Apr 14 12:00:05 1992.msg < prev    next >
Internet Message Format  |  1994-01-24  |  3KB

  1. Return-Path: <timbl>
  2. Received: by  nxoc01.cern.ch  (NeXT-1.0 (From Sendmail 5.52)/NeXT-2.0)
  3.     id AA21572; Tue, 14 Apr 92 12:00:05 GMT+0200
  4. Date: Tue, 14 Apr 92 12:00:05 GMT+0200
  5. From: timbl (Tim Berners-Lee)
  6. Message-Id: <9204141000.AA21572@ nxoc01.cern.ch >
  7. Received: by NeXT Mailer (1.62)
  8. To: wei@sting.berkeley.edu (Pei Y. Wei)
  9. Subject:  HTML printing: Conversion HTML->LaTeX->dvi->Postscript
  10. Cc: www-talk@nxoc01.cern.ch
  11.  
  12. > Does there exists something like a HTML to postscript/troff/* converter?
  13. > I'm looking for something better than ``www -n foo.html > lpr''.
  14.  
  15. Here's a simple html to latex converter using "sed". It's not complete, but it  
  16. produces reasonable results on the W3 documentation, so I can now (at last) make a  
  17. W3 book.  (A minor problem is that sed ignores any characters at the end of a file  
  18. which are not followed by a final newline, and the NeXT editor sometimes generates  
  19. HTML without the final newline.)
  20.  
  21. You have to prepend the document style you want to the output of sed. My makefile  
  22. looks like
  23.  
  24.     echo " \\\\batchmode \\\\documentstyle{book}" > the_www_project.tex
  25.     sed -f html2latex.sed $(THE_HTML) >> the_www_project.tex
  26.     latex  the_www_project.tex
  27.  
  28.  
  29. For a large book, I concatenate several html files, passing some of them through  
  30. another sed file which removes the <TITLE> elements and demotes the <H1> to <H2>  
  31. etc.  The file below italicises anchors, but in general it might be best to remove  
  32. them altogether. The smartest thing would be to generate the TeX to make a little  
  33. superscript reference to the page number to which a link refers.  Any TeX experts  
  34. out there?
  35.  
  36. I'll put the "W3 Book" in postscript up for anonymous FTP shortly.
  37.  
  38.  
  39.  Tim BL
  40. __________________________________________ html2latex follows
  41. 1i\
  42. \\begin{document}
  43. $a\
  44. \\end{document}
  45. /<XMP>/,/<.XMP>/b lit
  46. /<.XMP>/b lit
  47. /<xmp>/,/<.xmp>/b lit
  48. /<.xmp>/b lit
  49. /s?&.?\\&?g
  50. s?>.?>?g
  51. s?<.?<?g
  52. s?\\?\\backslash ?g
  53. s?{?\\{?g
  54. s?}?\\}?g
  55. s?%?\\%?g
  56. s?\$?\\$?g
  57. s?&?\\&?g
  58. s?#?\\#?g
  59. s?_?\\_?g
  60. s?~?\\~?g
  61. s?\^?\\^?g
  62. s?<TITLE>?\\author{Generated from the Hypertext}\\title{?g
  63. s?</TITLE>?}\\maketitle ?g
  64. s?<ADDRESS>??g
  65. s?</ADDRESS>??g
  66. s?<P>?\\par?g
  67. s?<p>?\\par?g
  68. s?<Hn>?\\part{?g
  69. s?</Hn>?}?g
  70. s?<H1>?\\chapter{?g
  71. s?</H[0-9]>?}?g
  72. s?<H2>?\\section{?g
  73. s?<H3>?\\subsection{?g
  74. s?<H4>?\\subsubsection{?g
  75. s?<H5>?\\paragraph{?g
  76. s?<H6>?\\subparagraph{?g
  77. s?<UL>?\\begin{itemize}?g
  78. s?</UL>?\\end{itemize}?g
  79. s?<LI>?\\item ?g
  80. s?<ul>?\\begin{itemize}?g
  81. s?</ul>?\\end{itemize}?g
  82. s?<li>?\\item ?g
  83. s?<DL>?\\begin{description}?g
  84. s?</DL>?\\end{description}?g
  85. s?<DT>?\\item[?g
  86. s?<DD>?]?g
  87. s?<dl>?\\begin{description}?g
  88. s?</dl>?\\end{description}?g
  89. s?<dt>?\\item[?g
  90. s?<dd>?]?g
  91. s?<NEXTID[^>]*>??g
  92. s?<A[^>]*>?\\it  ?g
  93. s?</A>?\\/\\rm  ?g
  94. : lit
  95. s?<XMP>?\\begin{verbatim}?g
  96. s?</XMP>?\\end{verbatim}?
  97. s?<xmp>?\\begin{verbatim}?g
  98. s?</xmp>?\\end{verbatim}?